حفظ حریم خصوصی در داده کاوی با استفاده از مدل k-anonymity

امنیت فناوری اطلاعات


امروزه شرکت ها و سازمان ها داده های خود را که شامل اطلاعات حساس و غیر حساس مشتریان می باشند، به منظور تحلیل و کشف الگوهای پنهان به گروه های متخصص یا محققان دیگرتحویل می دهند. این شرکت ها یا مالکان پایگاه های داده باید از حفظ حریم خصوصی مشتریان خود اطمینان حاصل کنند.

حفظ حریم خصوصی می تواند به چند طریق و در چند زمان و باید از جهات مختلف انجام شود. اگر اهمیت امنیت از کارایی داده کاوی بیشتر باشد، باید امر حفظ حریم خصوصی قبل از تحویل برای داده کاوی صورت بگیرد که شامل روش هایی از قبیل دستکاری داده ها، randomization و گمنامی می باشد. اما اگر کارایی داده کاوی از اهمیت بیشتری برخوردار باشد، سیاست های امنیتی در جهت حفظ حریم خصوصی باید به همراه داده کاوی انجام شود که شامل دستکاری در الگوریتم های داده کاوی برای محدود سازی داده کاوی و همچنین جلوگیری از خرابکاری از طریق query auditing  می باشد.

روش های ابتدایی برای حفظ حریم خصوصی در مرحله انتشار داده ها، حذف کردن یا تغییر دادن داده های حساس بود. پس از این کار مالک داده، داده های خود را با اطمینان خاطر به متخصصان جهت داده کاوی، تحویل می داد. ]1[  با توجه به تحقیقات انجام شده اکثر مردم در ایالات متحده توسط {zip 5 رقمی، جنسیت، تاریخ تولدبصورت کاملا یکتا قابل شناسایی هستند. با توجه به این امر، افراد توسط مشخصه های دیگر جمعیت شناسی نیز قابل شناسایی هستند. پس ما نباید تنها به حذف کردن و تغییر دادن مشخصه های نام و نام خانوادگی یا شماره های شناسایی یکتای کاربران اکتفا کنیم و باید نمایش این گونه از مشخصه ها را نیز محدود کنیم.

در این موضوع هدف ما محدود کردن دسترسی افراد به داده ها نمی باشد و هدف، کنترل دسترسی کاربران مختلف به داده ها نیست بلکه به وجود آوردن مکانیزم هایی است که بتوان با اسفاده از آن فقط از فاش شدن داده های حساس اشخاص در فرآیند داده کاوی جلوگیری به عمل آورد.

 k-anonymity مدلی است که به منظور گمنامی افراد در پایگاه داده ها به کار می رود. در این مدل attribute ها یا همان سرآیند فیلد ها به 3 مجموعه تقسیم می شوند:

1.       Quasi-identifier یا QID: مجموعه ای از attribute های غیر حساس که به کمک ترکیبی از این مجموعه می توان به صورت یکتا به داده های حساس افراد دست پیدا کرد.

2.       Sensitive attributes: مجموعه ی داده های حساس که فاش شدن این داده ها به منزله ی نقض حریم خصوصی افراد می باشد.

3.       Non-sensitive attributes: مجموعه ی داده هایی که در مجموعه های شماره یک و دو قرار نمی گیرند.

مثال 1: برای مثال مجموعه {zip، جنسیت، تاریخ تولد} QID می باشند. باید توجه داشت که اتصال دو جدول نیز ممکن است منجر به پدید آمدن QIDهای جدید شوند. یکی از مهمترین و حیاتی ترین مراحل در فرآیند متد k-anonymize انتخاب صحیح مجموعه QID است. 

تعریف 1: جدولی k-anonymity را ارضا می کند اگر و فقط اگر هر ترتیبی در ترکیب مجموعه QID، حداقل k بار در جدول رخ دهد.

در واقع جدولی که در آن تلاش برای یافتن رکورد هر فردی، به حداقل k-1 رکورد دیگر منجر شود. در نتیجه در جدول اطلاعات مربوط به یک فرد (بدون استفاده از دانش قبلی) قابل تشخیص نخواهد بود و با رکوردهای دیگر متشابه خواهد بود. (با استفاده از تکنیک های generalization و suppression).

به منظور برآورده کردن شرط k-anonymity، مقادیر فیلد های مجموعه quasi-identifier باید عمومی شوند. در واقع عملیاتی انجام می شود تا kرکورد جدول غیر قابل تمایز شوند. به این فرآیند generalization گویند.

 SHAPE  \* MERGEFORMAT generalization 

توجه به این نکته حائز اهمیت است که هر چه رکوردهای جدول بیشترAnonymize شوند، حفظ حریم خصوصی افراد افزایش می یابد، ولی کارایی داده کاوی کاهش می یابد. و باید در مقدار K و همینطور generalization به نسبت به کارایی در داده کاوی،tradeoff برقرار شود. و باید تا حد امکان، تا میزان مورد نیاز ، عمومی سازی صورت گیرد.


 

 SHAPE  \* MERGEFORMAT

همانطور که در جدول بالا می بینید، مجموعه {race, birth, gender, zip} مجموعه qid میباشد  و این مجموعه حداقل دو بار تکرار می شود و این امر سبب می شود تا شناسایی افراد را دشوار سازد.

 SHAPE  \* MERGEFORMAT  no diversity

در جدول بالا به دلیل عدم تنوع در فیلد حساس یا همان condition، حریم خصوصی افراد در سطرهای 9 الی 12 در معرض خطر است زیرا اطلاعات حساس همه ی این افراد یک مقدار است. برای مقابله با این وضعیت مدل l-diversity پیشنهاد شد. 

منابع:

[1]. L. Sweeney. k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (5), 2002 

 

 


نظرات شما عزیزان:

نام :
آدرس ایمیل:
وب سایت/بلاگ :
متن پیام:
:) :( ;) :D
;)) :X :? :P
:* =(( :O };-
:B /:) =DD :S
-) :-(( :-| :-))
نظر خصوصی

 کد را وارد نمایید:

 

 

 

عکس شما

آپلود عکس دلخواه:






ادامه مطلب
نوشته شده در تاريخ دو شنبه 11 فروردين 1393برچسب:PPDM , Data mining ,Privacy Presering Data Mining ,داده کاوی ,ویژگی Data Mining, توسط صمد سهراب
نمونه سوالات اتوماسیون اداری( Excel ) به همراه جواب نمونه سوالات اتوماسیون اداری( Access ) به همراه جواب نمونه سوالات اتوماسیون اداری( Word ) به همراه جواب بالابردن امنیت اطلاعات تلفن‌همراه با رمزنگاری اندروید اپلیکیشن های رایگان چیزی نیست جز از دست دادن حریم خصوصی! انگلیس رتبه اول لیست قربانیان حملات سایبری ۲۰۱۴ یک هکر روسی رمز عبور ۵ میلیون ایمیل را هک و منتشر نموده است 25 رمز عبور محبوب سال 2013 بدترین «رمز عبور»های اینترنتی معرفی شدند حمله هکرها به 18 دانشگاه ايتاليا ضد‌روش‌های هک پسورد هک سایت های آمریکایی امنیت مرورگرهای اینترنتی رمـــــــــــزهای امـــــــــن رمز عبور قوی یکی از اصول حفاظتی بدترین رمز عبورها انتشار 2 میلیون رمز عبور کاربران اینترنتی NOD32 Password and Username
تمامي حقوق اين وبلاگ محفوظ است | طراحي : قالب سبز